我们介绍了第一个基于学习的可重建性预测指标,以改善使用无人机的大规模3D城市场景获取的视图和路径计划。与以前的启发式方法相反,我们的方法学习了一个模型,该模型明确预测了从一组观点重建3D城市场景的能力。为了使这种模型可训练并同时适用于无人机路径计划,我们在培训期间模拟了基于代理的3D场景重建以设置预测。具体而言,我们设计的神经网络经过训练,可以预测场景的重构性,这是代理几何学的函数,一组观点,以及在飞行中获得的一系列场景图像。为了重建一个新的城市场景,我们首先构建了3D场景代理,然后依靠我们网络的预测重建质量和不确定性度量,基于代理几何形状,以指导无人机路径计划。我们证明,与先前的启发式措施相比,我们的数据驱动的可重建性预测与真实的重建质量更加紧密相关。此外,我们学到的预测变量可以轻松地集成到现有的路径计划中,以产生改进。最后,我们根据学习的可重建性设计了一个新的迭代视图计划框架,并在重建合成场景和真实场景时展示新计划者的卓越性能。
translated by 谷歌翻译
本文提出了一种新的3D形状生成方法,从而在小波域中的连续隐式表示上实现了直接生成建模。具体而言,我们提出了一个带有一对粗糙和细节系数的紧凑型小波表示,通过截短的签名距离函数和多尺度的生物联盟波波隐式表示3D形状,并制定了一对神经网络:基于生成器基于扩散模型的生成器以粗糙系数的形式产生不同的形状;以及一个细节预测因子,以进一步生成兼容的细节系数量,以丰富具有精细结构和细节的生成形状。定量和定性实验结果都表现出我们的方法在产生具有复杂拓扑和结构,干净表面和细节的多样化和高质量形状方面的优势,超过了最先进的模型的3D生成能力。
translated by 谷歌翻译
由于没有大型配对的文本形状数据,这两种方式之间的大量语义差距以及3D形状的结构复杂性,因此文本指导的3D形状生成仍然具有挑战性。本文通过引入2D图像作为垫脚石来连接两种方式并消除对配对的文本形状数据的需求,提出了一个名为“图像”的新框架,称为“垫脚石”(ISS)。我们的关键贡献是一种两阶段的功能空间对准方法,它通过利用具有多视图Supperions的预训练的单视重构造(SVR)模型来映射剪辑功能以形成形状:首先将剪辑图像剪辑剪辑功能到详细信息 - SVR模型中的丰富形状空间,然后将剪辑文本功能映射到形状空间,并通过鼓励输入文本和渲染图像之间的剪辑一致性来优化映射。此外,我们制定了一个文本制定的形状样式化模块,以用新颖的纹理打扮出输出形状。除了从文本上生成3D Shape生成的现有作品外,我们的新方法是在不需要配对的文本形状数据的情况下创建形状的一般性。实验结果表明,我们的方法在忠诚度和与文本一致性方面优于最先进的和我们的基线。此外,我们的方法可以通过逼真的和幻想结构和纹理对生成的形状进行样式化。
translated by 谷歌翻译
本文制定了一个新问题,实例影子检测,旨在检测影子实例和关联的对象实例,这些实例在输入图像中投射每个阴影。为了完成此任务,我们首先编译了一个新的数据集,其中包含掩码,用于影子实例,对象实例和阴影对象关联。然后,我们设计了一个评估度量,以定量评估实例阴影检测的性能。此外,我们设计了一个单阶段检测器,以端到端的方式执行实例阴影检测,其中双向关系学习模块和可变形的maskiou头在检测器中提议直接学习阴影实例与对象实例之间的关系并提高预测口罩的准确性。最后,我们在实例阴影检测的基准数据集上进行定量和定性评估我们的方法,并在光方向估计和照片编辑中显示我们方法的适用性。
translated by 谷歌翻译
尽管最近的方法带来了质量的提高,但视频超分辨率(SR)仍然非常具有挑战性,尤其是对于低光和嘈杂的视频而言。当前的最佳解决方案是随后采用最佳的视频SR模型,Denoising和Illumination Enerancions,但由于模型之间的不一致,因此通常会降低图像质量。本文提出了一种称为“深参数3D过滤器”(DP3DF)的新参数表示,该代表包含局部时空信息,以在单个编码器和编码器网络中有效地启用同时denosing,Inlumination Enlumination Enlumination Enlumination和SR。此外,通过共享主链共同学习了一个动态残留框架,以进一步提高SR质量。我们进行了广泛的实验,包括大规模的用户研究,以表明我们的方法的有效性。我们的方法一致地超过了所有具有顶级PSNR和用户评分的挑战性的真实数据集上最好的最新方法,但运行时间很快。
translated by 谷歌翻译
为了提高单帧3D对象检测的检测器,我们提出了一种新方法来训练它,以模拟在多帧点云上训练的检测器之后的功能和响应。我们的方法仅在训练单帧检测器时才需要多帧点云,并且一旦受过训练,它就可以在推理过程中仅用单帧点云作为输入来检测对象。我们设计了一个新颖的模拟多帧单阶段对象检测器(SMF-SSD)框架来实现该方法:多视图密集对象融合以使地面真实对象具有生成多帧点云;自我发项体素蒸馏,以促进从多框到单框体素的一到一对知识转移;多尺度的BEV功能蒸馏以在低级空间和高级语义BEV特征中传递知识;和自适应响应蒸馏以激活高置信度和准确定位的单帧反应。 Waymo测试集上的实验结果表明,我们的SMF-SSD始终优于所有最新的单帧3D对象检测器,用于所有难度级别1和2的对象类别的MAP和MAPH。
translated by 谷歌翻译
本文提出了一种新的方法来提高单模式(LIDAR)3D对象检测器,以模拟遵循多模式(LIDAR图像)检测器的特征和响应。该方法仅在训练单模式检测器时才需要LIDAR-图像数据,并且一旦训练良好,它只需要推断时的LiDAR数据即可。我们设计了一个新颖的框架来实现这种方法:响应蒸馏以关注关键响应样本并避免背景样本;从估计的关键体素中学习体素语义和关系的稀疏 - 素蒸馏;精细颗粒到点蒸馏,以更好地了解小对象的特征;和实例蒸馏以进一步增强深度效果的一致性。 Nuscenes数据集的实验结果表明,我们的方法优于所有仅SOTA激光雷达3D检测器,甚至超过了关键NDS指标上的基线激光镜检测器,填充了单个和多模式检测器之间的72%MAP间隙。
translated by 谷歌翻译
从\ emph {nocedended}点云中重建3D几何形状可以使许多下游任务受益。最近的方法主要采用神经网络的神经形状表示,以代表签名的距离字段,并通过无签名的监督适应点云。但是,我们观察到,使用未签名的监督可能会导致严重的歧义,并且通常会导致\ emph {意外}故障,例如在重建复杂的结构并与重建准确的表面斗争时,在自由空间中产生不希望的表面。为了重建一个更好的距离距离场,我们提出了半签名的神经拟合(SSN拟合),该神经拟合(SSN拟合)由半签名的监督和基于损失的区域采样策略组成。我们的关键见解是,签名的监督更具信息性,显然可以轻松确定对象之外的区域。同时,提出了一种新颖的重要性抽样,以加速优化并更好地重建细节。具体而言,我们将对象空间弹并分配到\ emph {sign-newand}和\ emph {sign-unawern}区域,其中应用了不同的监督。此外,我们根据跟踪的重建损失自适应地调整每个体素的采样率,以便网络可以更多地关注复杂的拟合不足区域。我们进行了广泛的实验,以证明SSN拟合在多个数据集的不同设置下实现最新性能,包括清洁,密度变化和嘈杂的数据。
translated by 谷歌翻译
本文介绍了一个名为DTNET的新颖框架,用于3D网格重建和通过Distangled Tostology生成。除了以前的工作之外,我们还学习一个特定于每个输入的拓扑感知的神经模板,然后将模板变形以重建详细的网格,同时保留学习的拓扑。一个关键的见解是将复杂的网格重建分解为两个子任务:拓扑配方和形状变形。多亏了脱钩,DT-NET隐含地学习了潜在空间中拓扑和形状的分离表示。因此,它可以启用新型的脱离控件,以支持各种形状生成应用,例如,将3D对象的拓扑混合到以前的重建作品无法实现的3D对象的拓扑结构。广泛的实验结果表明,与最先进的方法相比,我们的方法能够产生高质量的网格,尤其是具有不同拓扑结构。
translated by 谷歌翻译
点云语义分割通常需要大型群体注释的培训数据,但清楚地,点明智的标签太乏味了。虽然最近的一些方法建议用小百分比点标签训练3D网络,但我们采取了一个极端的方法并提出“一件事点击”,这意味着注释只需要每对象标记一个点。为了利用这些极其稀疏的标签在网络培训中,我们设计了一种新颖的自我训练方法,其中我们迭代地进行培训和标签传播,通过图形传播模块促进。此外,我们采用关系网络来生成每个类别的原型,并明确地模拟图形节点之间的相似性,以产生伪标签以指导迭代培训。 Scannet-V2和S3DIS的实验结果表明,我们的自我训练方法具有极其稀疏的注释,优于大幅度的全部现有的3D语义细分的所有现有的弱监督方法,我们的结果也与完全监督的结果相媲美同行。
translated by 谷歌翻译